Eliminating ghosting artifacts due to moving objects is a challenging problem in high dynamic range (HDR) imaging. In this letter, we present a hybrid model consisting of a convolutional encoder and a Transformer decoder to generate ghost-free HDR images. In the encoder, a context aggregation network and non-local attention block are adopted to optimize multi-scale features and capture both global and local dependencies of multiple low dynamic range (LDR) images. The decoder based on Swin Transformer is utilized to improve the reconstruction capability of the proposed model. Motivated by the phenomenal difference between the presence and absence of artifacts under the field of structure tensor (ST), we integrate the ST information of LDR images as auxiliary inputs of the network and use ST loss to further constrain artifacts. Different from previous approaches, our network is capable of processing an arbitrary number of input LDR images. Qualitative and quantitative experiments demonstrate the effectiveness of the proposed method by comparing it with existing state-of-the-art HDR deghosting models. Codes are available at https://github.com/pandayuanyu/HSTHdr.
translated by 谷歌翻译
神经表面重建旨在基于多视图图像重建准确的3D表面。基于神经量的先前方法主要训练完全隐式的模型,它们需要单个场景的数小时培训。最近的努力探讨了明确的体积表示,该表示通过记住可学习的素网格中的重要信息,从而大大加快了优化过程。但是,这些基于体素的方法通常在重建细粒几何形状方面遇到困难。通过实证研究,我们发现高质量的表面重建取决于两个关键因素:构建相干形状的能力和颜色几何依赖性的精确建模。特别是,后者是准确重建细节的关键。受这些发现的启发,我们开发了Voxurf,这是一种基于体素的方法,用于有效,准确的神经表面重建,该方法由两个阶段组成:1)利用可学习的特征网格来构建颜色场并获得连贯的粗糙形状,并且2)使用双色网络来完善详细的几何形状,可捕获精确的颜色几何依赖性。我们进一步引入了层次几何特征,以启用跨体素的信息共享。我们的实验表明,Voxurf同时达到了高效率和高质量。在DTU基准测试中,与最先进的方法相比,Voxurf获得了更高的重建质量,训练的加速度为20倍。
translated by 谷歌翻译
为了满足各种用户需求,近年来对图形布局的不同子任务进行了深入探讨。现有研究通常提出具有不同投入输出格式,专用模型体系结构和不同学习方法的任务特异性方法。但是,这些专业的方法使得适应了看不见的子任务,阻碍了不同子任务之间的知识共享,并且与设计通用模型的趋势背道而驰。在这项工作中,我们提出了Unilayout,该Unilayout以统一的方式处理图形布局生成的不同子任务。首先,我们统一地表示子任务的各种输入和输出作为令牌序列。然后,基于统一的序列格式,我们自然利用具有不同子任务的变压器的相同的编码器架构。此外,基于上述两种统一,我们进一步开发了一个同时支持所有子任务的单个模型。在两个公共数据集上的实验表明,尽管简单,单层虽然明显优于先前的特定于任务的方法。
translated by 谷歌翻译
事件摄像机最近在高动力或具有挑战性的照明情况下具有强大的常规摄像头的潜力,因此摄影机最近变得越来越受欢迎。通过同时定位和映射(SLAM)给出了可能受益于事件摄像机的重要问题。但是,为了确保在包含事件的多传感器大满贯上进展,需要新颖的基准序列。我们的贡献是使用包含基于事件的立体声摄像机,常规立体声摄像机,多个深度传感器和惯性测量单元的多传感器设置捕获的第一组基准数据集。该设置是完全硬件同步的,并且经过了准确的外部校准。所有序列都均均均均由高度准确的外部参考设备(例如运动捕获系统)捕获的地面真相数据。各个序列都包括小型和大型环境,并涵盖动态视觉传感器针对的特定挑战。
translated by 谷歌翻译
通用事件边界检测(GEBD)是视频理解中的一项重要但挑战性的任务,该任务旨在检测人类自然感知事件边界的时刻。在本文中,我们为GEBD任务提供了本地上下文建模和全局边界解码方法。提出了局部上下文建模子网络来感知通用事件边界的各种模式,并生成强大的视频表示和可靠的边界信心。基于它们,全局边界解码子网络被利用为从全局视图解码事件边界。我们提出的方法在动力学-GEBD测试集上达到了85.13%的F1得分,与基线方法相比,它实现了22%以上的F1得分增强。该代码可从https://github.com/jackytown/gebd_challenge_cvpr2022获得。
translated by 谷歌翻译
将监督学习的力量(SL)用于更有效的强化学习(RL)方法,这是最近的趋势。我们通过交替在线RL和离线SL来解决稀疏奖励目标条件问题,提出一种新颖的阶段方法。在在线阶段,我们在离线阶段进行RL培训并收集推出数据,我们对数据集的这些成功轨迹执行SL。为了进一步提高样本效率,我们在在线阶段采用其他技术,包括减少任务以产生更可行的轨迹和基于价值的基于价值的内在奖励,以减轻稀疏的回报问题。我们称此总体算法为阶段性的自我模拟还原(Pair)。对稀疏的奖励目标机器人控制问题(包括具有挑战性的堆叠任务),对基本上优于非强调RL和Phasic SL基线。 Pair是第一个学习堆叠6个立方体的RL方法,只有0/1成功从头开始奖励。
translated by 谷歌翻译
合作多代理增强学习(MARL)的许多进步基于两个共同的设计原则:价值分解和参数共享。这种时尚的典型MARL算法将集中式Q功能分解为本地Q-NETWORKS,其中具有跨代理商共享的参数。这种算法范式可以实现集中培训和分散执行(CTDE),并在实践中提高了有效的学习。尽管有所有优势,我们还是重新审视这两个原则,并表明在某些情况下,例如具有高度多模式奖励格局,价值分解和参数共享的环境可能会出现问题,并导致不良结果。相比之下,在这些情况下,具有单个政策的政策梯度(PG)方法可证明融合到最佳解决方案,这部分支持了一些最近的经验观察,即PG在许多MARL测试台上都可以有效。受理论分析的启发,我们提出了实施多代理PG算法的实用建议作为星际争霸多代理挑战和Google Research Football。我们希望我们的见解可以使社区受益于发展更一般和更强大的MARL算法。查看我们的项目网站https://sites.google.com/view/revisiting-marl。
translated by 谷歌翻译
通用事件边界检测是视频理解中重要但具有挑战性的任务,旨在检测人类自然感知事件界限的时刻。这项任务的主要挑战是察觉各种事件边界的各种时间变化。为此,本文提出了一个有效和最终的学习框架(DDM-Net)。为了解决事件边界的多样性和复杂的语义,我们提出了三个显着的改进。首先,我们构建一个功能银行来存储空间和时间的多级功能,为多个尺度进行差异计算。其次,为了减轻先前方法的时间模型不足,我们呈现密集差异图(DDM)以全面地表征运动模式。最后,我们利用逐步关注多级DDM,共同聚集出外观和运动线索。因此,DDM-Net分别在Kinetics-Gebd和TapCOS基准上实现了14%和8%的显着提高,并且优于Loveu挑战@ CVPR 2021的前1名获胜者解决方案而没有钟声和吹口哨。最先进的结果展示了更丰富的运动表示和更复杂的聚合的有效性,在处理通用事件边界检测的多样性方面。我们的代码将很快推出。
translated by 谷歌翻译
与3D铰接物体感知和互动,例如橱柜,门和龙头,对未来的家庭助手机器人进行人类环境中的日常任务构成特殊挑战。除了解析铰接部件和联合参数外,研究人员最近倡导学习操纵在输入形状几何形状上,这是更加任务感知和几何细粒度的。然而,只采用​​被动观测作为输入,这些方法忽略了许多隐藏但重要的运动限制(例如,联合位置和限制)和动态因素(例如,关节摩擦和恢复),因此对这种不确定性的测试用例失去了显着的准确性。在本文中,我们提出了一个名为Adaaveword的新颖框架,该框架是学习的,以便在更准确地将可怜的实例特定的后医中迅速调整可怜的地前沿来执行很少的测试时间相互作用。我们使用Partnet-Mobility DataSet进行大规模实验,并证明我们的系统比基线更好。
translated by 谷歌翻译
对象检测在过去十年中取得了实质性进展。然而,只有少量样品检测新颖类仍然有挑战性,因为低数据制度下的深度学习通常会导致降级的特征空间。现有的作品采用整体微调范例来解决这个问题,其中模型首先在具有丰富样本的所有基类上进行预培训,然后它用于雕刻新颖的类特征空间。尽管如此,这个范例仍然不完美。微调,一个小型类可以隐含地利用多个基类的知识来构造其特征空间,它引起分散的特征空间,因此违反了级别的可分离性。为了克服这些障碍,我们提出了一系列两步的微调框架,通过关联和歧视(FADI),为每个新颖类带来了一个具有两个积分步骤的判别特征空间。 1)在关联步骤中,与隐式利用多个基类相反,我们通过显式模仿特定的基类特征空间来构造一个紧凑的新颖类别特征空间。具体地,我们根据其语义相似性将每个小组与基类联系起来。之后,新类的特征空间可以容易地模仿相关基类的良好训练的特征空间。 2)在歧视步骤中,为了确保新型类和相关基类之间的可分离性,我们解除了基础和新类的分类分支。为了进一步放大所有类之间的阶级间可分性,施加了专用的专用边缘损失。对Pascal VOC和MS-Coco Datasets的广泛实验表明FADI实现了新的SOTA性能,显着改善了任何拍摄/分裂的基线+18.7。值得注意的是,优势在极其镜头方案上最为宣布。
translated by 谷歌翻译